1. Wstęp i Cel Projektu

🎯 Cel Analizy: Celem niniejszego badania jest zidentyfikowanie oraz ocena siły oddziaływania kluczowych determinant cenowych na rynku nieruchomości mieszkalnych w Polsce. Analiza koncentruje się na wielowymiarowym badaniu zależności między cechami fizycznymi lokalu, infrastrukturą otoczenia a ceną transakcyjną. Projekt zakłada dwuetapową weryfikację hipotez: w ujęciu globalnym (dla całego zbioru danych) oraz w ujęciu lokalnym, poprzez szczegółową analizę specyfiki wybranych rynków miejskich (np. Warszawy,Gdańska), co pozwoli na uchwycenie niuansów lokalizacyjnych wpływających na wycenę.

1.1 O Danych

Analiza została przeprowadzona na zbiorze danych zawierającym oferty sprzedaży mieszkań z czerwca 2024 roku.

Źródło danych:** [https://www.kaggle.com/datasets/krzysztofjamroz/apartment-prices-in-poland/?select=apartments_pl_2023_08.csv]

1.2. 📖 Słownik Zmiennych (Data Dictionary)

Poniższa tabela przedstawia opis zmiennych dostępnych w analizowanym zbiorze danych:

Słownik Zmiennych (Data Dictionary)
Nazwa Zmiennej Opis
id Unikalny identyfikator ogłoszenia
city Miasto, w którym znajduje się nieruchomość
price Cena ofertowa (PLN)
squareMeters Powierzchnia mieszkania w m²
rooms Liczba pokoi
floor / floorCount Piętro mieszkania / Liczba pięter
buildYear Rok budowy budynku
type Rodzaj zabudowy
ownership Forma własności
lat / lon Współrzędne geograficzne
centreDistance Odległość od centrum (km)
poiCount Liczba punktów POI (500m)
*Distance Odległości do: szkół, przychodni itp.
has*Parking, Balkon, Winda, Ochrona… Czy ma dane udogodnienie (TAK/NIE)

2. Porządkowanie i czyszczenie danych

Proces przygotowania danych do analizy został podzielony na kilka kluczowych etapów: definicję reguł poprawności, wstępną walidację, imputację braków danych (metodami statystycznymi i uczenia maszynowego) oraz weryfikację końcową.

2.1. Definicja Reguł Walidacyjnych

Przed przystąpieniem do czyszczenia zdefiniowano zestaw reguł logicznych przy użyciu pakietu validate. Pozwoliło to na identyfikację błędów w surowym zbiorze danych.

Sprawdzono m.in.:

Spójność logiczną: Czy piętro mieszkania nie jest wyższe niż liczba pięter w budynku (Logic_Floor).

Zasady budowlane: Czy w budynkach jednopiętrowych nie zadeklarowano windy (Logic_Elevator).

Wiarygodność cen: Czy cena mieści się w przedziale 100 tys. – 10 mln PLN.

Geolokalizację: Czy współrzędne geograficzne znajdują się w granicach Polski (Bounding Box).

Kompletność dystansów: Czy odległości do punktów POI są wartościami dodatnimi.

Wstępna walidacja wykazała naruszenia, które zostały skorygowane w kolejnych krokach.

2.2. Strategia Czyszczenia i Imputacji

Wdrożono wieloetapowy potok przetwarzania danych (pipeline), obejmujący:

Wykluczenie zmiennych buildingMaterial oraz condition. Decyzja ta została podyktowana znacznym stopniem niekompletności danych (brakujące wartości) oraz niską jakością informacji źródłowych, co uniemożliwiało przeprowadzenie rzetelnej analizy statystycznej w tym zakresie.

Imputacja logiczna:

Braki w liczbie pięter (floor) uzupełniono wartością mediany (3) lub wartością floorCount, jeśli była mniejsza niż 3.

Informację o windzie (hasElevator) wywnioskowano na podstawie wysokości budynku (przyjęto, że budynki powyżej 4 pięter posiadają windę).

Imputacja statystyczna (Dystanse): Brakujące odległości do punktów usługowych (*Distance) uzupełniono średnią arytmetyczną obliczoną lokalnie dla każdego miasta.

Imputacja algorytmiczna (kNN): Brakujący rok budowy (buildYear) uzupełniono metodą k-Najbliższych Sąsiadów (kNN), bazując na podobieństwie pod względem liczby punktów POI oraz odległości od centrum.

2.3. Zaawansowana Imputacja (Random Forest)

Do uzupełnienia braków w kluczowej zmiennej kategorycznej type (rodzaj zabudowy) zastosowano model uczenia maszynowego Random Forest (las losowy). Model został wytrenowany na kompletnych obserwacjach (500 drzew decyzyjnych), a następnie wykorzystany do predykcji typu budynku dla brakujących rekordów, co pozwoliło na zachowanie struktury danych lepiej niż proste uzupełnienie dominantą.

2.4. Wyniki i Weryfikacja Końcowa

Po zakończeniu procesu czyszczenia przeprowadzono:

Ponowną walidację: Sprawdzono zgodność danych z regułami validate.

Analizę braków (naniar): Potwierdzono wyeliminowanie kluczowych braków danych.

Zapis: Przetworzony zbiór danych został zapisany do pliku .RData w celu optymalizacji wydajności raportu.

3. Analiza opisowa rynku nieruchomości

Rozdział ten stanowi szczegółową analizę zebranych danych, mającą na celu zrozumienie mechanizmów rządzących polskim rynkiem nieruchomości w 2026 roku. Przeprowadzona analiza opisowa pozwala zidentyfikować kluczowe trendy cenowe oraz zrozumieć, jakie czynniki techniczne i lokalizacyjne w największym stopniu kształtują wartość ofert. Dzięki wykorzystaniu miar tendencji centralnej oraz metod wizualizacji, możliwe jest oddzielenie typowych transakcji od zjawisk o charakterze luksusowym czy marginalnym. Stanowi to fundament do dalszych, bardziej zaawansowanych wniosków dotyczących opłacalności inwestycji w konkretnych segmentach rynku.

3.1 Ogólna charakterystyka cen mieszkań w Polsce

Rozkład cen cechuje się silną asymetrią prawostronną, z największą koncentracją ofert w przedziale od 500 000 do 850 000 PLN. Dominacja tego segmentu wyznacza rynkowy standard cenowy, podczas gdy oferty powyżej 1,5 mln PLN stanowią nieliczną grupę nieruchomości luksusowych. Wyraźny brak ogłoszeń poniżej 250 000 PLN definiuje wysoki próg wejścia na badany rynek. Obecność wartości odstających, sięgających nawet 3 mln PLN, powoduje, że średnia arytmetyczna jest zawyżona. W konsekwencji to mediana, a nie średnia, najlepiej oddaje realny koszt zakupu typowego mieszkania.

Wykres prezentuje wyraźną korelację dodatnią między liczbą pokoi a ceną nieruchomości, przy czym wraz ze wzrostem metrażu obserwuje się nie tylko wzrost mediany, ale także znaczące rozszerzenie rozstępu międzykwartylowego. Rynek mieszkań 1- i 2-pokojowych charakteryzuje się największą stabilnością i koncentracją cenową, gdzie niski próg wejścia oscyluje wokół 400 000 PLN, natomiast segmenty 3- i 4-pokojowe wykazują silną asymetrię prawostronną z licznymi wartościami odstającymi sięgającymi nawet 3 mln PLN. Obecność tak wysokich wartości ekstremalnych w segmencie średniej wielkości mieszkań świadczy o silnie rozwiniętym rynku premium, który istotnie zawyża średnią arytmetyczną, czyniąc medianę najbezpieczniejszym wskaźnikiem typowej ceny transakcyjnej. W przypadku największych lokali, mających 5 i 6 pokoi, korpusy wykresów stają się znacznie wyższe, co sugeruje, że w tej kategorii liczba pokoi przestaje być dominującym czynnikiem cenotwórczym na rzecz standardu wykończenia i prestiżowej lokalizacji. Całość obrazuje strukturę rynkową, w której ryzyko cenowe i dyspersja ofert rosną progresywnie wraz z wielkością nieruchomości, definiując rynek o wysokim stopniu zróżnicowania jakościowego.

Analiza wykresu skrzypcowego (violin plot) wskazuje na istotne różnice w strukturze cenowej w zależności od typu zabudowy, przy czym segment apartamentowców charakteryzuje się najwyższą medianą cen oraz najbardziej rozciągniętym prawostronnym ogonem rozkładu. W przeciwieństwie do bloków, które wykazują największą koncentrację ofert w węższym przedziale cenowym i relatywnie najniższy próg wejścia, kamienice prezentują specyficzny, dwumodalny charakter rozkładu sugerujący podział na lokale standardowe oraz nieruchomości zrewitalizowane o znacznie wyższej wartości. Największą gęstość prawdopodobieństwa dla wszystkich typów zabudowy obserwujemy w przedziale od 600 000 do 1 100 000 PLN, jednak to apartamentowce wykazują najszerszy rozstęp międzykwartylowy, co świadczy o największym zróżnicowaniu standardu w tej kategorii. Wyraźne wydłużenie „szyjek” wykresów w stronę wartości przekraczających 2 mln PLN, szczególnie widoczne w przypadku kamienic i apartamentowców, potwierdza występowanie silnej asymetrii dodatniej i unikalnych ofert luksusowych, które kształtują górną granicę badanego rynku. Całość zestawienia dowodzi, że o ile blokowiska stanowią najbardziej przewidywalny i jednorodny segment cenowy, o tyle inwestycja w apartamenty lub kamienice wiąże się z większą dyspersją kosztów i obecnością ofert o charakterze wybitnie prestiżowym.

Mapa punktowa ofert prezentuje możliwość oceny koncentracji ofert w miastach wraz z rozkładem cen w odróżnienu od innych miast, ale również dzielnic. Mapa ukazuje różnice cenowe między dzielnicami centralnymi, a obrzeżami zwanymi dzielnicami mieszkalnymi.

Mapa bąbelkowa uwidacznia drastyczne dysproporcje w średnich cenach mieszkań, gdzie dominująca wielkość i ciemny kolor bąbla nad Warszawą wyznacza ogólnokrajowy szczyt cenowy przekraczający 1 000 000 PLN. Wysoki poziom cenowy utrzymuje się również w aglomeracji krakowskiej i trójmiejskiej, podczas gdy mniejsze ośrodki, takie jak Radom czy Częstochowa, reprezentowane są przez jasne punkty sygnalizujące znacznie niższy koszt zakupu nieruchomości. Rozkład ten potwierdza, że kapitał jest silnie skoncentrowany w kilku kluczowych metropoliach, co tworzy wyraźny podział na drogie rynki regionalne i bardziej przystępne cenowo obszary reszty kraju.

Wykres słupkowy prezentuje wyraźną hierarchię cenową polskich miast, w której Warszawa deklasuje pozostałe ośrodki z rekordową średnią stawką przekraczającą 18 000 PLN za m². Drugi segment rynku tworzą Kraków oraz Gdańsk, gdzie ceny oscylują w granicach 15 000 – 17 000 PLN, podczas gdy na przeciwległym biegunie znajdują się Radom i Częstochowa z ofertami poniżej 7 500 PLN za m². Tak duża rozpiętość — sięgająca ponad 150% między stolicą a miastami o najniższych stawkach — obrazuje głębokie rozwarstwienie ekonomiczne kraju i koncentrację popytu inwestycyjnego w kilku kluczowych metropoliach.